查看原文
其他

SRE自动化工程实践和稳定性运营 | TF115回顾

中国计算机学会 中国计算机学会
2024-09-09



2023年8月3日,CCF TF 第115期活动“SRE自动化工程实践和稳定性运营”在线成功举行。本期会议邀请了享道出行运维自动化负责人谢庆芳、哔哩哔哩SRE负责人武安闯、美图公司高级运维经理石鹏等一线技术专家,讨论了运维标准化工程和稳定性运营实践、SRE转型实践与可靠性工程实践。分享的内容精彩、讨论热烈,听众反馈积极。



CCF TF活动相关专家报告均收录在CCF数字图书馆【TF专辑】,欢迎长按识别,回看精彩分享。本期活动报告也已收录,欢迎持续关注!



在数字化时代,数字化业务迅速发展,随之软件的规模扩展很快,软件系统的复杂性快速增长,即使采用微服务架构、云原生平台,复杂性问题没有得到显著改善,生产环境的稳定性面临着巨大的挑战,从而产生了软件工程的一个新分支:稳定性工程。系统稳定性工程(Site Reliability Engineering,SRE)是一种致力于确保系统稳定性和可靠性的跨职能工程实践。它结合了软件工程和运维运营的最佳实践,通过自动化运维流程、监控系统、故障预测和快速响应来降低系统故障率,旨在提供高效的运维支持并提高系统的可靠性,确保系统在面对高负载、故障和变更时仍能保持稳定运行,以满足业务需求和提供良好的用户体验。


CCF TF软件质量工程SIG策划了本次“SRE自动化工程实践和稳定性运营”活动,讲者来自在SRE领域有着丰富、成功实践经验的企业,在这一领域进行了较长时间的探索,深入探讨在云原生、智能时代面对复杂应用系统,如何借助稳定性工程来提升系统服务的稳定性等,形成了一套可行的解决方案。


本期会议邀请了来自享道出行运维自动化负责人谢庆芳、哔哩哔哩 SRE负责人武安闯、美图公司高级运维经理石鹏等一线技术专家,结合自己企业的实践,分别讨论了3个主题:运维标准化工程实践、B站SRE转型实践与可靠性工程实践、美图SRE团队的「稳定性运营」实践。


运维标准化工程实践



来自享道出行运维自动化负责人谢庆芳,先从什么是运维标准化、运维标准化必要性开始介绍,然后深入运维标准化实践、运维标准化成熟度两大主题。


运维标准类似工厂流水线,针对动态事件的处理,涉及到流程规范和自动化应用。通过流程化和自动化,我们可以解决传统化阶段所面临的问题,最终我们会进入智能化阶段,借助人工智能来提供新的想法和思路,以帮助我们更高效地处理问题。


在这标准化演化过程中,我们要注意事件处理的有效性和可持续性,能够快速识别对象、进行分层抽象、事先定义流程、关注运行状态、进行结果检查。对于流程编排,不仅要促进业务标准化,而且要自身标准化。例如,对于问题的追溯,我们会注重通知方面的及时性、日志方面的准确性。通过通知的方式,我们现在可以更方便地找到合适的人员,并通过建立流程来追踪这些人员,使问题得到快速解决。如果处理人员没有及时处理问题工单,我们可以再次通知他们,起到催促和提醒的作用,以确保问题能够尽快得到解决,保证处理的时效性。整个运维体系要逐渐形成标准化体系,持续动态改进,不断提升运维标准化成熟度,追求卓越。


B站SRE转型实践与可靠性工程实践



哔哩哔哩SRE负责人武安闯主要专注于SRE转型体系的建设和实践落地,这次会议上,他分享了在 B站在SRE转型实践与可靠性工程的历程,分为四个部分。首先,他从个人的角度思考传统运维与SRE之间的区别,包括在转型过程中对个人的要求,所以第二部分侧重讨论了人、组织、制度如何为SRE转型保驾护航。在第三部分,武安闯介绍了在SRE实践中的三个方面,分别为高可用架构、技术风险、质量运营。最后,他分享了SRE SLO实践框架(见下图)和一些实战经验。在提到SRE时,还向听众推荐了两本重要的书籍,《Google SRE工作手册》、 《SRE:Google运维解密》、《SRE原理与实践》。



整个分享既有理论,又有实践,当然更多的是落地实施的历程和实战经验。听众从中收益不浅,包括了解运维转型SRE中遇到的困难和如何破局、SRE可靠性工程在互联网公司的实际框架、了解SRE如何解构与落地可靠性工程。


美图SRE团队的「稳定性运营」实践



美图公司高级运维经理石鹏分享的《美图SRE团队的「稳定性运营」实践》内容丰富,他先简单介绍了SRE的目标&挑战,然后详细介绍指导破局的理论框架——攻守兼备,「守」是指被动应对、稳住基本盘,「攻」是指主动出击、做好规划和运营。



「守」稳住基本盘,应急响应+故障治理;故障复盘、改进验收、故障模拟、混沌工程、周边清查。例如,故障复盘需要清楚过程、影响、机理等,然后制定的整改措施要有效、能举一反三。故障复盘有黄金三问:


我们应该怎么做,才能更快地恢复业务?

我们应该怎么做,才能避免再次出现类似问题? 

我们有哪些好的经验可以总结、提炼,并固化?


「攻」规划&运营,包含三大方向(稳定性、效率/支撑、成本)、两个基础(元信息建设、团队建设)、一些探索。例如仅仅稳定性这一项,涉及监控体系梳理(见下图)、可观测性建设-整体架构、监控大盘建设、运维元数据+应用拓扑、事件治理、图文告警推广、由监到控、全链路压测平台等内容。



互动环节,各位参会者对SRE自动化工程实践和稳定性运营的相关内容进行了踊跃提问,如“在SRE运营方面,我们从被动转为主动,从防守转为进攻,主要受什么影响?为何会发生这种转变?”、“之前我们比较熟悉服务级别协议(SLA),为什么会增加从服务级别指标(SLI)、服务级别目标(SLO)?”、“在B站,从SLI到SLO、再从SLO到SLA的提升过程都有哪些要求?两次提升花了多长时间?”等问题,各位嘉宾根据分享的主题内容进行了详细的答疑解惑。例如SLI定义了衡量系统性能和可靠性的关键指标、SLO定义了对系统性能和可靠性的期望,我们将SLI与SLO相结合,通过不断监测和评估SLI与SLO的匹配程度,我们可以识别出潜在的问题并进行相应的改进。


关于CCF TF

CCF TF技术前线(Tech Frontier)创立于2017年6月,旨在为工程师提供顶级交流平台,更好地服务企业界计算机专业人士,帮助企业界专业技术人士职业发展,通过搭建平台实现常态化合作和发展,促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、软件质量工程等十二个SIG(Special Interest Group),提供丰富的技术前线内容分享。2023年全年,CCF TF将在线开展20场活动,会员免费参加。

加入CCF



加入CCF会员享受更多超值活动,为自己的技术成长做一次好投资。

点击链接了解更多会员权益:

CCF个人会员权益  CCF公司会员权益


识别或扫码入会


欢迎关注CCFTF及CCF业务总部公众号,精彩陆续开启!


关注CCFTF获取TF活动资讯

关注CCF业务总部优惠预定会议场地


合作单位


CCF推荐

【精品文章】




点击“阅读原文”,回顾往期精彩视频!

继续滑动看下一个
中国计算机学会
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存